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En esta investigacion exploramos el razonamiento de profesoras en formacion acerca de la 
dispersion de datos (variabilidad o variacion) cuando es analizada en problemas donde se comparan 
conjuntos de datos que involucran situaciones de riesgo como lo son las apuestas en juegos y la 
duracion de vida en tratamientos médicos. En esta comunicacion se presentan las respuestas que 
dieron 97 futuras profesoras de nivel preescolar a dichos problemas. Los problemas fueron resueltos 
antes de que las estudiantes normalistas iniciaran un curso de procesamiento de informacion 
estadistica y los resultados mostraron la dificultad que ellas tienen para interpretar la dispersion en 
este tipo de contextos. Por los resultados obtenidos consideramos importante reflexionar acerca de 
la instruccion de las estudiantes sobre los significados de medidas de centro y dispersion con la 
finalidad de contribuir en su formacion. 
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Introducci6n 

La variacion es la causa subyacente de la existencia de la estadistica que esta presente en todos 
lados y por lo tanto en conjuntos de datos (Watson, 2006). Ademas Moore (1990) enfatiza la 
importancia de medirla y modelarla, y encontramos que investigadores como Wild y Pfannkuch 
(1999) incluyen la percepcion de la variacion como parte de los tipos fundamentales del 
razonamiento estadistico. Asimismo, Garfield y Ben-Zvi (2008) observan que “la comprension de las 
ideas de dispersion y variabilidad en los datos es una componente clave en la comprension del 
concepto de distribucion y es esencial para hacer inferencias estadisticas” (p. 203). Por su parte, 
Burrill y Biehler (2011) proponen una lista de siete ideas estadisticas fundamentales en las cuales la 
variaciOn se ubica en el segundo lugar. Respecto del aspecto escolar, Franklin, Bargagliotti, Case, 
Kader, Sheaffer y Spangler (2015) mencionan que los profesores deben reconocer las caracteristicas 
de la estadistica y comunicarlas de manera clara y, particularmente, poner énfasis en la variabilidad y 
el papel del contexto, y en la descripcion de la variabilidad considerar que los datos estan 
constituidos de una estructura (la media o la mediana) alrededor de la cual varian. En relacion con 
ello, Canada y Makar (2006) encontraron que al resolver problemas sobre distribuciones los 
profesores en formacion presentan una percepcion intuitiva de la variacion, la cual describen con 
lenguaje informal y que la media es poco utilizada. Otros estudiosos como Mooney, Duni, 
VanMeenen y Langrall (2014) mencionan que al investigar acerca de la percepcion de la 
variabilidad, en situaciones de azar, los profesores en formacion reconocen que debe presentarse 
cierta cantidad de variabilidad, pero no tienen certeza sobre cuanta. De las investigaciones 
precedentes se desprende que es necesario proveer a los futuros profesores con experiencias tanto en 
el analisis de datos como en situaciones de azar donde se desarrollen conceptos como centro, 
variacion, distribucion, valores esperados y las relaciones entre ellos. Para explorar la comprensi6on y 
razonamiento de los alumnos acerca de la percepcion, descripcion y medicion de la variacion en los 
datos se han utilizado diferentes contextos y problemas por ejemplo, variabilidad en el muestreo 
(Watson & Moritz, 2000), azar (Watson & Kelly, 2004), mediciones repetidas, variacion en el 
crecimiento de plantas (Lehrer & Schauble, 2007; Petrosino, Lehrer & Schauble, 2003), y clima 
(Reading, 2004). De acuerdo con estos investigadores, las situaciones de riesgo proveen otro 
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escenario para indagar el razonamiento que tienen los estudiantes acerca de la variabilidad (Sanchez 
& Orta, 2013). Por ello, esta comunicaci6n tiene como objetivo explorar la manera en que futuras 
profesoras del nivel preescolar interpretan la dispersi6n de datos en situaciones de riesgo, con la 
finalidad de que sepan conceptos estadisticos fundamentales con miras a su mejoramiento 
profesional. Por este motivo es importante incluir en su formacion el conocimiento de conceptos 
estadisticos, que le permitan favorecer la recoleccion, representaciOn e interpretacion de informacion 
en el nivel preescolar (SEP, 2011). Ademas de considerar que estos seran ensefiados posteriormente a 
sus alumnos en otros niveles educativos (Ball, Thames & Phelps, 2008). 


Marco de Referencia 

Esta exploracion se ubica en el area de razonamiento estadistico cuya propuesta es comprender 
como razonan las personas con ideas estadisticas (Garfield & Ben-Zvi, 2008) y asi proponer 
caracteristicas para crear escenarios de aprendizaje, puesto que cuando los participantes de una 
investigaciOn tratan de justificar sus respuestas, muestran los elementos a los que le dan importancia, 
en particular los datos que eligen, las operaciones que realizan, sus creencias y sus conocimientos. 
Aunque en ocasiones las respuestas de las personas no son tan explicitas para revelar claramente su 
razonamiento, de cualquier manera muestran indicios para identificar algunos de sus rasgos. En este 
estudio identificamos algunas caracteristicas del razonamiento de profesoras en formacion ante 
situaciones de riesgo. Una parte importante en una investigacion en didactica de las matematicas son 
los problemas. Al resolverlos éstos deben promover en las personas la capacidad de pensar y razonar 
y asi proveer al investigador de resultados relevantes que aporten informacion al area de estudio. Los 
problemas deben también llamar la atencion de quienes los resuelven para que puedan 
comprometerse con su solucién y aumentar las probabilidades de la comprensi6n del concepto que se 
quiere estudiar. En la estadistica el razonamiento debe articular ideas como media o dispersion, 
expresadas con numeros, con situaciones reales basadas en datos, es decir, el razonamiento 
estadistico esta intimamente relacionado con el contexto, y los numeros en contexto implican 
informacion (Moore, 1990). Los problemas sobre toma de decisiones bajo incertidumbre son 
comunes en estadistica, este tipo de problemas han sido utilizados para promover y analizar 
caracteristicas importantes del razonamiento estadistico de las personas. Ademas, las situaciones que 
requieren de la comparacién de conjuntos de datos son utilizadas frecuentemente para involucrar a 
los alumnos en el razonamiento con datos (Garfield & Ben-Zvi, 2008). En esta exploraci6n se 
presentan dos situaciones de toma de decisiones y comparacion de conjuntos de datos en los cuales la 
dispersion es importante, y ésta puede ser asociada con la nocion de riesgo, la cual esta asociada con 
la incertidumbre presente en un suceso que implica una amenaza. Estas situaciones aparecen cuando 
hay resultados no deseados que, como consecuencia, provocan pérdidas o dafios. Un problema 
paradigmatico en un escenario de riesgo consiste en elegir entre dos juegos de apuestas de los cuales 
se muestran pérdidas y ganancias (Kahneman & Tversky, 2000). Considere el siguiente problema: 


Las ganancias observadas de n repeticiones de un juego A (x,,) y m del juego B (y,) son: 
Juego A: X4,X2 5 Xn 


Juego B: y4, V2 «+3 Vm 
,En cual de los dos juegos participarias? 


Una solucion puede ser la siguiente: 1) comparar las medias aritméticas de ambos juegos (X y y); 
2) six # y, elegir el juego cuya media es mayor; 3) si x = y, se tienen dos opciones: 3a) elegir 
cualquier juego; 3b) analizar la dispersion de los datos en cada juego y elegir uno de acuerdo con las 
preferencias hacia el riesgo. Estas preferencias pueden ser definidas como generalizaciones de las 
actitudes hacia el riesgo: 
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En general, la preferencia por un resultado seguro y el rechazo de un juego cuyo resultado tiene 
un valor esperado igual o mayor a dicha ganancia es llamada aversion al riesgo. Y el rechazo de 
una ganancia segura y la aceptacion de un juego cuyo resultado tiene un valor esperado menor o 
igual a esa ganancia es llamada propension al riesgo (Kahneman & Tversky, 2000, p. 2). 


En un juego la dispersion de las ganancias (incluidas las pérdidas) puede ser considerada una 
medida de riesgo: entre mayor dispersion mas riesgo. Una persona adversa al riesgo preferira un 
conjunto de datos menos disperso en lugar de otro cuyos datos tengan mayor dispersion, mientras 
que una persona es propensa al riesgo cuando prefiere la opcién cuyos datos son mas dispersos. 


Método 
En este estudio participaron 97 profesoras en formacion de una escuela normal publica de la 
Ciudad de México que cursan la Licenciatura en Educacion Preescolar (atencion a nifios de 3-6 
afios). Para explorar las ideas de las futuras profesoras se utilizé un cuestionario con dos problemas 
sobre comparaciones de conjuntos de datos (ver Figura 1). 


Problema 1. En una feria, se invita a los asistentes a participar en uno de dos juegos. Juan puede 
participar en un juego, pero no en ambos. Para saber por cual decidirse observa, anota y ordena los 
resultados de dos muestras de 10 personas que han participado en cada juego. Las pérdidas (-) o 
premios (+) en efectivo que han obtenido las 20 personas se muestran en las siguientes listas: 


Juego 1: 
15 -21 a 50 2 11 13 -25 16 -4 
Juego 2: 
120 -120 60 -24 21 133 -81 96 -132 18 
a) Si tienes la posibilidad de participar en un solo juego. {Cual juego elegirias? 
¢Por qué? 


Problema 2. Considera que debes aconsejar a una persona que padece una enfermedad grave, 
incurable y mortal, pero que es tratable con medicamentos que pueden extender la vida por varios 
afios. Es posible elegir entre dos tratamientos. Las personas tienen diferentes reacciones a las 
medicinas. para algunas tienen el resultado previsto. mientras que para otras pueden ser mas o 
menos benéficas. A continuaci6én se muestran los afios que han vivido varios pacientes tratados con 
cada una de las opciones mencionadas: cada dato de los que se mmestran corresponde al tiempo que 
ha sobrevivido un paciente con el respectivo tratamiento. Después se muestran las graficas 
correspondientes a los tratamientos. 


Tratamientos 


‘ 


Gea 


ica del tratamiento 1 Grafica del tratamiento 2 


Niimero de personas 


Numero de afios vividos por persona Numero de afios vividos pot persona 


a) {Qué tipo de tratamiento preferirias (1 0 2)? ¢Por qué? 


Figura 1. Problemas resueltos por las profesoras. 


El cuestionario fue resuelto por las profesoras en formacion previo a iniciar el curso de 
procesamiento de informacion estadistica. Los problemas tenian un inciso donde se plantea una 
situacion de toma de decisiones. En el problema | se dan las ganancias y pérdidas de dos juegos y se 
pide elegir el juego en el que mas convendria jugar y en el problema 2, los tiempos de afios vividos 
en forma grafica de dos grupos de pacientes después de someterse respectivamente a uno de dos 
tratamientos, y se solicita decidir cual es el mejor tratamiento. En el primer problema las medias 
aritméticas de los conjuntos de datos son iguales mientras que en el segundo son diferentes. En 
ambos casos es importante la interpretacion de la dispersion asociada con el riesgo para justificar la 
eleccion. A continuacién se comentan los resultados obtenidos en cada uno de los problemas 
resueltos por las profesoras, se inicia este apartado presentando las respuestas al problema | y 
después se muestran las correspondientes del problema 2. Para analizar las respuestas en primer lugar 
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se observo la decisidn que tomaron, es decir, el conjunto de datos que eligieron y en segundo lugar, 
se categorizaron las respuestas con base en las estrategias de comparacion que describieron en sus 
justificaciones siguiendo las sugerencias de Birks y Mills (2011). 


Resultados 


Problema 1 

La solucion normativa del problema | consistiria en comparar las medias y posteriormente 
considerar la dispersion (que a través del rango seria suficiente). En el caso de que se perciba el 
riesgo en ambos juegos, la opcion elegida dependera de las actitudes del riesgo de quien resuelve el 
problema: Elegirian el juego 1 aquellos que son adversos al riesgo, mientras que optarian por el juego 
2 los propensos al riesgo. Las frecuencias con las que se eligié alguna de las opciones fueron las 
siguientes: 58 (de 97) futuras profesoras eligieron el juego 1, mientras que 31 de ellas seleccionaron 
el juego 2, y 5 participantes respondieron que elegirian cualquiera y las 3 restantes no respondieron. 
Ninguna de las argumentaciones para dichas elecciones siguié el esquema de razonamiento que se 
describio en el parrafo precedente; aunque algunas se aproximaron. Un procedimiento comtn en 
todas las estrategias consistid en sumar las ganancias de cada juego (los valores positivos) y agregar 
sus pérdidas (valores negativos pero sin considerar el signo), obteniéndose cuatro valores G;, G2, P:, 
P,. La forma en que combinaron estos valores produjo las siguientes comparaciones: 

Comparacion de la diferencia entre ganancias y pérdidas. En 30 casos, la estrategia consistiO 
en encontrar la ganancia global cada uno de los juegos. Esto mediante la comparacion de las 
diferencias entre ganancias y pérdidas: G)— P; = G; — P; = 49. Este procedimiento prefigura el uso 
de la media. 16 alumnas participantes eligieron el juego 1, 8 normalistas el juego 2 y 6 futuras 
profesoras mencionaron que cualquiera. Por ejemplo, una estudiante argumenta: “al hacer las 
operaciones la diferencia de ambos juegos entre perder y ganar es de 49”. Aqui advertimos que no se 
tiene en cuenta la dispersion de los datos ni consideraciones de riesgo. 

Comparacion de la suma de pérdidas o ganancias. 19 respuestas se basaron, ya sea en la 
comparacion de la suma de las ganancias (eligieron el juego 2, porque G2 > G;) 0 en la comparacion 
de la suma de las pérdidas (eligieron el juego | porque P; < P2, pues — P; > — P2). En algunas de 
estas respuestas se percibid el riesgo. 9 participantes eligieron el juego | y 10 participantes el 2. Por 
ejemplo una participante eligid el juego | y la justificacion de su eleccion fue la siguiente: “Existe la 
posibilidad de poder obtener una ganancia ya que de acuerdo con los resultados de las muestras del 
juego | las ganancias fueron de 105 y pérdidas de 56, pero en el segundo juego las ganancias fueron 
de 427 y las pérdidas de 378. En conclusion en el primer juego se perdera menos que en el segundo 
aunque los premios sean mejores en el segundo”. Mediante esta argumentacion consideramos que la 
justificacion de la eleccion fue con base en la comparacion de la suma de las pérdidas, observando 
que son menores en el juego 1, y descubrimos aversion al riesgo ya que en la justificacidn se comenta 
“se perdera menos”. 

Comparacion de relaciones proporcionales entre ganancias y pérdidas. En 6 casos se 
compararon relaciones proporcionales entre pérdidas y ganancias, notando que es mayor la del juego 


G G. 7 . . a 
1: = >=, por tanto, optaron por este juego. Dado que las medias son iguales, la anterior 


Py P2 
desigualdad se reduce a P; > P>, en el fondo esta estrategia consiste en elegir el juego 1 porque se 
pierde menos. Un ejemplo de este tipo de respuestas fue mencionada por una estudiante, quien 
menciono: “porque por los datos se refleja que en este juego hay mas probabilidades de salir ganador 
ya que el numero de ganadores casi duplica el de perdedores y aunque fue menos cantidad lo ganado 
que en el juego 2, en el 1 es mas seguro ganar aunque sea poco, y yo no elegiria el juego 2 porque 
aunque se ganan cantidades mas grandes de igual forma se pierde mucho”. En este ejemplo se 
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observa, por un lado el uso de la razon entre las ganancias y las pérdidas y, por otro la aversion al 
riesgo ya que en parte del argumento se comenta que “es mas seguro ganar aunque sea poco”. 

Comparacion de las medias aritméticas. Sdlo hubo 2 respuestas en las que el juego elegido fue 
el 1, donde mostraron el uso de la media aritmética para hacer la comparacion entre los juegos, en 
una de ellas ademas de presentar la media aritmética (4.9) con la justificacion siguiente: “Las 
cantidades son mas bajas, estan mas cercas de la media”. En el ejemplo se advierte, ademas de la 
mencion de la media, la nocion de la dispersion al elegir el juego | con valores cercanos al centro del 
conjunto de datos. 


Problema 2 

La solucion normativa del segundo problema puede reducirse al calculo de las medias de los 
tiempos de vida de cada tratamiento, notando que los datos del tratamiento | tienen mayor media 
(6.7) que los del tratamiento 2 (6). Con lo anterior, también puede elegirse el tratamiento 2, 
considerando la dispersion mediante el rango e interpretandolo como riesgo. Se creeria que el riesgo 
con el tratamiento | (rango = 8) es mayor que el riesgo con el tratamiento 2 (rango = 4) y que la 
disminucion en el riesgo podria compensar la diferencia entre las medias. En este ultimo caso la 
eleccién estaria motivada por una aversion al riesgo. En este problema 60/97 profesoras en formacion 
eligieron el tratamiento 1 y 37/97 el tratamiento 2. En los argumentos que justifican las elecciones de 
las participantes se pueden identificar las siguientes estrategias de comparacion: 

Comparacion de centros. En 31 respuestas se compararon los valores modales observados en 
cada grafica. En 19 de ellas se eligio el tratamiento 1, posiblemente comparando las modas de los 
conjuntos de datos (8 > 6), por ejemplo, una justificacion fue: “hay mas probabilidades de vivir mas 
afios (8 aprox.)”. En 12 casos eligieron el tratamiento 2 probablemente con base en la proporcién de 
personas que vivieron seis afios, por ejemplo: “aqui me garantizan 7 personas que van a vivir 6 afios 
seguros, sin embargo en el "1" 6 personas viven 8 afios, es seguro pero yo voy mas por el numero de 
personas que tomaron el tratamiento”. En esta estrategia aunque se tienen en cuenta los centros de los 
conjuntos de datos, se ignora la variacion de los datos. 

Comparacion de valores extremos. 19 participantes eligieron con base en uno de los valores 
extremos. Cuando el tratamiento elegido fue el 1, en 8 respuestas se argumenté que con ese 
tratamiento se podrian vivir hasta 10 afios; 2 estudiantes justificaron dicha eleccion indicando que 
vivirian por lo menos | afio. En 9 casos se eligio el tratamiento 2, justificando que se vivirian por lo 
menos 4 afios. Un ejemplo de este tipo de respuestas donde se eligié el tratamiento | fue: “El tiempo 
vivido en afios por persona es mayor; se puede llegar a vivir 9 0 incluso 10 afios, lo que en el otro 
tratamiento no”. En las respuestas donde el tratamiento elegido es el 1, es probable que la eleccion 
sea motivada por una propension al riesgo, ya que se menciona que se puede vivir hasta 10 afios; 
mientras que las respuestas donde el tratamiento elegido fue el 2, es probable que sean motivadas por 
una aversion al riesgo, pues comentan que al menos pueden vivir 4 afios. 

Comparacion de cardinalidad. Doce estudiantes que eligieron el tratamiento 1 basaron su 
eleccion en la cardinalidad del conjunto de datos (27 > 21) y entre sus argumentos comentaban que 
mas personas habian vivido con esa opcion. Por ejemplo: “porque hay mas probabilidad de que 
funcione ese tratamiento ya que fueron 27 las personas beneficiadas” 

Comparacion con el rango. En 6 respuestas se hizo alusion al rango. En estas respuestas se 
pondero el riesgo, aunque de manera confusa, por ejemplo: “prefiero probar el tratamiento donde hay 
una mayor probabilidad de obtener un resultado mas proximo o al menos que si te asegure 0 muestre 
que viviras minimo dos afios mas o maximo 10 afios”. En 4 respuestas el tratamiento elegido fue el 1, 
mientras que 2 eligieron el 2 con el argumento del hecho de asegurar un periodo de vida de 4 a 8 
afios. 
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Comparacion de centro y extremo. En 4 respuestas se eligié el tratamiento 1, en uno de estos 
casos se expresa que se podian vivir hasta 10 afios y en promedio 8 (en realidad es la moda), y en 2 
restantes se eligié el tratamiento 2, probablemente, considerando que por lo menos vivirian 4 afios y 
en promedio 6 con la justificacion: “porque en el tratamiento | la mayoria de personas lograron vivir 
8 afios y en el tratamiento 2 la mayoria sdlo logro vivir 6 afios y no hay ni una persona que haya 
vivido 10 afios, al contrario del primer tratamiento que una persona ha logrado vivir 10 afios. Por lo 
tanto si ya una persona logro los 10 afios la persona que necesita el consejo puede también vivir 10 
afios”. En la respuesta es claro que la estudiante observ6 centros (valor modal) y extremos para tomar 
una decision, quizas también la preferencia por el riesgo sea la propensiOn, porque con ese 
tratamiento “1 persona ha logrado vivir 10 afios”. 

Comparacion del centro y la dispersion. En una respuesta se combinaron centro y dispersion 
para justificar la eleccion. El tratamiento elegido fue el 2 y la justificacion: “El tratamiento fue mas 
funcional ya que se tiene que las personas viven aproximadamente de 4 a 8 afios, con mayor 
influencia a los seis afios pues son afios mas concretos, donde se puede planear muy bien su vida” . 

En los resultados obtenidos 38 de las 97 participantes que seleccionaron el problema | y 28 de las 
97 que eligieron el problema 2 no mostraron una justificacion clara al elegir entre los conjuntos de 
datos. Por ejemplo en el problema |seleccionaron el juego 2 y mencionaron “porque en el juego 2 se 
tienen mas probabilidades de ganar mas cantidad de objetos que en el juego 1”, sin embargo no 
encontramos una estrategia evidente que represente lo mencionado, ademas del uso de la palabra 
objetos que no corresponde con el contexto planteado. En el problema 2, las participantes solo 
explicaron su eleccion diciendo “con alguno de los tratamientos se vive mas”, pero sin ofrecer 
argumentos que muestren como se usaron los datos. 


Conclusiones 

En el problema | casi 40% de las respuestas fueron confusas; sin embargo en algunas de éstas se 
advirtio que las futuras profesoras ponian atencion a las diferencias entre los valores de cada 
conjunto de datos, lo cual es punto de partida en la percepcion de la variacion. Asi, en el problema de 
los tratamientos médicos se presentan varias respuestas en las que se comparan elementos aislados de 
cada conjunto (los maximos, los minimos o las modas), y aunque no siempre fueron combinados de 
manera adecuada, puede sugerirse una estrategia que incluya todos los datos 0 combinaciones de 
éstos. En el problema de apuestas probablemente las respuestas en las que se afirma que se gana mas 
o se pierde menos, la atencidn de las participantes también se enfocd en elementos aislados (en 
particular en los valores extremos). 

La estrategia de sumar las ganancias y luego las pérdidas tiene la caracteristica de que se 
consideran todos los datos. En el problema 2 varias futuras docentes usan relaciones proporcionales 
en las que combinan y hacen uso de mas de un valor del conjunto de datos, ya sea operando con ellos 
o mencionandolos de manera explicita. La comparacion de las ganancias totales prefigura la 
respuesta mas sofisticada consistente en comparar las medias, lo que no es una estrategia espontanea 
ni facil de elaborar por parte de los alumnos (Gal, Rothschild & Wagner, 1989), y la cual pudo 
observarse en las futuras docentes. En la ensefianza se insiste en la importancia de la 
proporcionalidad, y por ello considerarla como estrategia indispensable para resolver cualquier 
problema, y en nuestra investigacion fue empleada en la comparacion de las razones en el problema 
1. Consideramos que no es una estrategia del todo inadecuada, pues las llev6 a elegir el juego en el 
que la pérdida es menor. Esta manera de resolver es mas apropiada en el problema 2, en la que 
comparan proporciones de los valores modales. 

Son pocas las respuestas basadas en la consideracion de los rangos (6%) o influenciadas por la 
percepcion del riesgo (problema 2). Lo que mostraron las participantes en relacion con los dos 
problemas es que son muy diferentes, pues ninguna de ellas adapto en el problema 2 la estrategia 
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seguida en el problema 1; esto nos lleva a suponer que el contexto y el formato de presentacion de los 
datos ejercen mayor efecto que la estructura (oculta) del problema. Asimismo, en el problema 1, en 
general, hubo revision de los datos, mientras que en el problema 2, en 20 casos se eligié un 
tratamiento sin ofrecer ninguna justificaciOn que incluyera un procesamiento de los datos debido, 
quiza, a la dificultad de extraer los datos numéricos de la grafica (valores extremos de cada conjunto 
de datos y aparente ausencia de la lista de datos). En cambio, en este problema 2 las estudiantes 
ponderaron el riesgo en la forma de elegir el tratamiento 1: “se puede vivir 10 afios” o tratamiento 2: 
“al menos se viven 4 afios”. 

De los resultados mostrados se percibe que al igual que en investigaciones previas (Canada & 
Makar 2006; Mooney et. al, 2014) es necesario promover en las profesoras en formacion, conceptos 
estadisticos como centro, variacion, distribucion, valores esperados. Las estrategias a seguir deben 
ser multiples (discusiones, talleres, uso de la tecnologia, resolucién de problemas enmarcados en 
diferentes situaciones, formatos variados de presentacion de los datos, entre otros) para que las 
futuras profesoras se apropien de estos conceptos. Ademas, las educadoras mexicanas en servicio 
deben abordar en el aula la agrupacion de objetos segtn sus atributos, cualitativos o cuantitativos; la 
recopilacion y representaciOn apropiada de datos e informacion, asi como su interpretacion (SEP, 
2011); los procesos anteriores requieren de la consideracion de la variabilidad (Franklin, Kader, 
Mewborn, Moreno, Peck, Perry & Scheaffer, 2007) por lo que es necesario que desarrollen este 
concepto. Esta investigacion aporta informacion sobre el conocimiento de las profesores en 
formacion acerca de la variabilidad, concepto estadistico importante (Spangler, 2014), y mostramos, 
de manera incipiente, que los problemas con los cuales hemos explorado el razonamiento de las 
profesoras en formacion conducen a percibir la variacion dandole un significado asociado al riesgo 
para presentar estrategias que las guiaron a usar la media y el rango de manera significativa y a 
motivarlas a planear actividades que propicien dar sentido y significado a los procedimientos 
basados en el uso de la media y la dispersion. 
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The aim of this investigation is to explore the preservice teachers’ reasoning about variation 
(variability or spread) when they analyze data in situations that involve risk. In particular, in this 
communication the responses to two problems of a questionnaire administered to 96 preservice 
teachers are reported. The problems are of comparing groups of data in situations of risk: stakes in 
games and the life expected after medical treatments. The questionnaire was applied before the 
preservice teachers began a course of statistical information processing and the results showed the 
difficulty found by students to interpret variation in this type of contexts. For these results it is 
necessary to reflect on the instruction of future teachers about the meanings of measures of center 
dispersion and dispersion to contribute to an improvement in their academic training. 


Introduction 

Variation is the underlying cause of the existence of statistics and, given its omnipresence, it is 
also found in data sets (Watson, 2006). Moore (1990) highlights the importance of measuring and 
modelling variation while Wild and Pfannkuch (1999) include the perception of variation as part of 
the fundamental types of statistical reasoning. Additionally, Garfield and Ben-Zvi (2008) consider 
that “Understanding the ideas of spread or variability of data is a key component of understanding 
the concept of distribution, and is essential for making statistical inferences” (p. 203). For their part, 
Burrill and Biehler (2011) propose a list of seven fundamental statistical ideas in which variation is 
placed in the second position. Regarding the school perspective, Franklin, Bargagliotti, Case, Kader, 
Sheaffer and Spangler (2015) consider that teachers must identify the characteristics of statistics; 
they must communicate it clearly and, particularly, they should highlight variability and the role of 
the context. In the description of variability, they have to consider that data are constituted by a 
structure (mean or median) around which they vary. To that respect, Canada and Makar (2006) found 
that, when solving problems on distributions, preservice teachers have an intuitive perception of 
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variation. They describe it using informal language while the mean is rarely used. Other researchers, 
as Mooney, Duni, VanMeenen and Langrall (2014), state that when exploring on the perception of 
variability in chance situations, preservice teachers identify a certain amount of variability must be 
present, but have no certainty about how much. From the preceding researches, it is necessary to 
provide future teachers with experiences in both data analysis and chance situations in which they 
can develop concepts as: center, variation, distribution, expected values and the relations between 
them. 

To explore the students’ comprehension and reasoning regarding the perception, description and 
measurement of data variation, several contexts and problems have been used; among them are: 
sampling variability (Watson & Moritz, 2000), chance (Watson & Kelly, 2004), repeated measures, 
variation in growth of plants (Lehrer & Schauble, 2007; Petrosino, Lehrer & Schauble, 2003) and 
weather (Reading, 2004). According to these researchers, risk situations provide another scenario to 
explore the students’ reasoning on variability (Sanchez & Orta, 2013). Therefore, the aim of this 
work is to explore the way in which preservice preschool teachers interpret the spread of data in risk 
situations, so that they know fundamental statistical concepts towards their professional 
improvement. For this reason, it is of great importance to include the knowledge of statistical 
concepts in their education; such concepts will allow them to promote collection, representation and 
interpretation of information at preschool level (SEP, 2011). In addition, we must consider that these 
concepts will be taught to their students in other educational levels (Ball, Thames & Phelps, 2008). 


Reference Framework 

This exploration is located within the field of statistical reasoning whose approach is to 
understand how people reason using statistical ideas (Garfield & Ben-Zvi, 2008). We seek to propose 
characteristics to create learning scenarios since the participants of an investigation show the 
elements they consider important—particularly, the chosen data, operations done, beliefs and 
knowledge—when they try to justify their responses. Although the persons’ responses are often not 
so explicit as to clearly reveal their reasoning, they still show signs to identify some of their features. 
In this study, we identified some of the characteristics of the preservice teachers’ reasoning when 
they face risk situations. 

Problems are a key component in an investigation on mathematics didactics. When solving them, 
they must promote the ability of thinking and reasoning in people to provide the researcher with 
relevant results that contribute with information to the field of work. A problem should also attract 
those who solve it, so that they engage with the solution and increase the probabilities of 
understanding the studied concept. In statistics, reasoning must articulate ideas, as median or spread, 
expressing those using numbers; that is, with real situations based on data. Statistical reasoning is 
closely related to the contexts and numbers in context involve information (Moore, 1990). Problems 
regarding decision making under uncertainty are common in statistics. This type of problem has been 
used to promote and analyze relevant characteristics of people’s statistical reasoning. In addition, 
those situations that demand the comparison of data sets are frequently used to involve students in 
reasoning with data (Garfield & Ben-Zvi, 2008). In this work, we present two situations involving 
decision making and data set comparison in which spread is important since it might be associated to 
the notion of risk which, in turn, might be linked to the uncertainty in an event that involves a threat. 
These situations arise when there are unwanted results that cause, in consequence, losses or damages. 
A paradigmatic problem in a risk scenario consists of choosing between two gambling games that 
show losses and gains (Kahneman & Tversky, 2000). Consider the following problem: 


The gains observed in n repetitions of a game A (x,,) and m of game B (y,,) are: 
Game A: X41, X2 5 Xp 
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Game B: yj, V2 «+3 Vn 
In which of the two games would you take part? 


A solution to the problem might be: 1) comparing the arithmetic means of both games (x andy); 
2) if x # y, choose the game whose mean is greater; 3) but if x = y, 3a) choose any game or 3b) 
analyze the spread of data in each game and choose according to the preferences towards risk. These 
preferences can be defined as generalization of the attitudes towards risk: 


In general, a preference for a sure outcome over a gamble that has higher or equal expectation is 
called risk aversion, and the rejection of a sure thing in favor of a gamble of lower or equal 
expectation is called risk seeking (Kahneman & Tversky, 2000, p. 2). 


In a gamble, the spread of gains (including losses) can be considered a measure of risk: greater 
spread, greater risk. A person averse to risk will choose a data set with lower spread instead of one 
whose data have a greater spread. In contrast, a risk-seeking person will choose a data set with a 
greater spread. 


Method 
The participants in the study were 97 preservice teachers from a public teacher training school in 
Mexico City who study a Bachelor of Preschool Education (care of children aged 3—6 years). A 
questionnaire including two problems regarding comparison of data sets (see Figure 1) was used to 
explore the preservice teachers’ ideas. 


Problem 1 In a fair, the attendees are invited to participate in one of two games, but not in 
both. In order to know which game to play, John observes, takes note and sorts the results 
of 10 people playing each game. The cash losses (—) or prizes (+) obtained by the 20 people 
are shown in the following lists: 
Game 1: 15, -21, 4, 50, -2, 11, 13, -25, 16, 4 
Game 2: 120, —-120, 60, —24, —21, 133, -81, 96, -132, 18 

a) If you could play only one of the two games, which one would you choose? Why? 


Problem 2. Consider you must advice a person who suffers from a severe, incurable and 
deathly illness, which may be treated with a drug that may extend the patient’s life for 
several years. It is possible to choose between two different treatments. People show 
different effects to the medication: while in some cases the drugs have the desired results, 
in some others the effects may be more favorable or more adverse. The graphs 
corresponding to the treatments are shown below. 


Treatment 1 Treatment 2 


Number of patients 


a) Which treatment would you prefer (1, 2 or 3)? Why? 


Figure 1. Problems solved by the teachers. 
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The questionnaire was answered by the preservice teachers before they took the course on 
statistical information processing. The problems included a section in which a decision-making 
situation is posed. In problem 1, the gains and losses in two gambles are given and the person is 
asked to choose the most convenient gamble. In problem 2, the person is asked to graphically choose 
the times of years lived by two groups of patients after they underwent either of two treatments; the 
person is asked which the best treatment is. In the first problem, the arithmetic means of the data sets 
are equal while they are different in the second problem. In both cases, interpreting the spread 
associated to risk is important to justify the choice. 

Below we discuss the responses obtained for each of the problems solved by the teachers. The 
section starts with the responses to problem | and then, those obtained for problem 2. To analyze the 
responses, firstly we observed the decision the participants made, that is, the data set they chose. 
Secondly, we categorized the responses based on the strategies of comparison the teachers describe 
in their justification, as suggested by Birks and Mills (2011). 


Results 


Problem 1 

The normative answer to problem | would consist in comparing the means and then, considering 
the spread (considering it through the range would be enough). In case risk is perceived in both 
gambles, the option chosen will depend on the risk attitudes of the person solving the problem: those 
averse to risk would choose gamble 1 while gamble 2 would be chosen by risk-seeking persons. The 
frequencies corresponding to the options were as follows: 58 (out of 97) preservice teachers chose 
gamble | while only 31 of them chose gamble 2. Only 5 participants responded they would choose 
any gamble and 3 teachers did not answer. No argumentation for the choices followed the reasoning 
scheme described in the previous paragraph, even though some arguments came close. A common 
procedure to all the strategies was adding the gains of each gamble (positive values) as well as the 
losses (negative values without considering the sign), thus obtaining four values G1, G2, P/, P2. The 
way in which these values were combined produced the following comparisons: 

Comparison of the difference between gains and losses. In 30 cases, the strategy consisted in 
finding the global gain in each of the gambles by comparing the differences between gains and 
losses: G2— P2 = GI — PI = 49. This procedure prefigures the use of the mean. 16 participants chose 
gamble | while 8 preservice teachers chose gamble 2 and 6 answered they would choose any. For 
example, a student argues: “when doing the operations, the difference in the two gambles between 
gaining and losing is 49.” Here we observe they do not take into account the spread of data nor risk 
considerations. 

Comparison of the sum of gains or losses. 19 teachers based their response whether on the 
comparison of the sum of the gains (they chose gamble 2 because G2 > G/) or on that of the sum of 
losses (they chose gamble | since P/ < P2, given that —P/ > — P2). Risk was perceived in some of 
these responses: 9 of the participants chose gamble | while 10 chose the second one. One of the 
participants who chose gamble | justified her choice by saying: “There is the possibility of getting a 
gain since, according to the results of the samples of gamble 1, there were 105 gains and 56 losses, 
but in the second gamble there were 427 gains and 378 losses. In conclusion, in the first gamble there 
will be fewer losses than in the second one; although the prizes are better in the second one.” 
Through this argumentation we consider that the choice was based on the comparison of the sum of 
losses: her perception was that losses are lower in gamble 1. We found risk aversion since, in her 
justification, the participant says “there will be fewer losses”. 

Comparison of proportional relationships between gains and losses. In 6 cases, the 
participants compared proportional relationships between gains and losses, noticing that the one of 
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gamble | is greater: “4 > a2, That is why they chose this gamble. Given that the means are equal, the 
1 2 


previous inequality is reduced to P/ > P2. In reality, this strategy aims to choosing gamble | because 
there are fewer losses. As an example, one of the students justified her response by stating: “because 
from the data, there is a greater probability of winning in this gamble since the number of winners 
almost doubles the one of the losers and even if the gain was lower than in gamble 2, winning—even 
if it is a littlk—is more certain in 1 and I would not choose gamble 2 because although bigger 
amounts are won, losses are high too.” This is an example of both the use of reason between gains 
and losses and risk aversion, since the argument includes the statement “winning—even if it is a 
little—is more certain”. 

Comparison of arithmetic means. Only 2 responses showed the use of arithmetic mean to 
compare the gambles, and gamble 1 was chosen in both cases. One of the responses showed the 
arithmetic mean (4.9) and justified the response by saying “the numbers are lower and closer to the 
mean’. In the example we see that besides mentioning the mean, the participant has a notion of 
spread when she chooses gamble 1, which has values that are closer to the center of the data set. 


Problem 2 

The normative answer to the second problem can be reduced to the calculation of the means in 
the life expectancy for each treatment, considering that the data of treatment | have a greater mean 
(6.7) than those of treatment 2 (6). Therefore, treatment 2 could also be chosen if one considers the 
spread using the range and interprets it as risk. Risk from undergoing treatment | (range = 8) might 
be thought to be greater than that from treatment 2 (range = 4) and that the decrease in the risk might 
compensate for the difference between the means. In this last case, the choice would be motivated by 
risk aversion. For this problem, 60/97 of the preservice teachers chose treatment 1 while 37/97 chose 
treatment 2. In the arguments that justify the participants’ choices, we identify the following 
comparison strategies: 

Comparison of centers. In 31 responses, the modal values observed in each graph were 
compared. In 19 of the responses, the participants chose treatment 1, possibly comparing the modes 
of the data sets (8 > 6). For instance, one of the teachers justified her response by saying: “there is a 
greater chance of living longer (8 approx.)”. In 12 cases, the teachers chose the second treatment 
possibly based on the proportion of people who lived six years; for example: “7 persons guarantee 
that they will live 6 years for sure; however, 6 people live for 8 years in “1”. That is for sure but I 
choose based on the number of persons who were treated”. Even though the strategy considers the 
centers of the data sets, it ignores the data variation. 

Comparison of extreme values. In 19 cases, the participants made their choice based on the 
extreme values. When treatment | was chosen, 8 of the responses argued that the treatment would 
extend the patients’ lives for up to 10 years. Two students justified their choice pointing out they 
would live at least a year. In 9 cases, the students chose the second treatment and they justified their 
response by saying they would live for four years at least. An example of the type of response in 
which treatment | was chosen was: “The time in years a person lived is longer; a person can live 9 or 
10 years; something that does not happen with the other treatment”. In the responses where treatment 
1 was chosen, the choice might have been motivated by risk seeking since the response states a 
person can live up to 10 years. In contrast, those responses in which the second treatment was chosen 
were probably motivated by risk aversion, given that they refer patients live at least for four years. 

Comparison of cardinality. Twelve participants who chose treatment | based their response on 
the cardinality of the data set (27 > 21) and, among their arguments, they considered that a higher 
number of people had lived with that choice. For example: “because there is a greater chance that this 
treatment works since 27 persons were benefited”. 
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Comparison with range. In six responses, the students referred to range. Although confusingly, 
they considered the risk; for example: “I prefer to take the treatment that has the higher probability of 
getting a close result, or at least that ensures you’ll live at least two years or a maximum of 10 years”. 
In four responses, the students chose the first treatment while they twice chose the second treatment, 
arguing that it would ensure a survival period from four to eight years. 

Comparison of center and extreme. The students chose the first treatment in four responses. 
One of these responses expresses a person could live up to 10 years and eight in average (in reality, 
the response refers to the mode). Treatment 2 was chosen in two responses, probably considering a 
patient would live four years at least and six years in average. This response was justified as follows: 
“because in treatment 1, most of the people manage to live eight years and with treatment 2, most 
only live six years and there is no one who lived 10 years, unlike the first treatment [with which] a 
person has managed to live for 10 years. So, if a person has already managed for 10 years, the person 
in need of advice might also live for 10 years”. From the response, it is evident that the student 
observed centers (modal value) and extremes to make a decision. Risk seeking is probably driving 
the response since the student stated that using the treatment “a person has managed to live for 10 
years”. 

Comparison of center and spread. In a response, the student combined center and spread to 
justify her choice. The student chose the second treatment and justified her response by stating: “The 
treatment was more functional since we have that the people live approximately from four to eight 
years and, more frequently, six years because they are more solid years, where life can be very well 
planned”. 

In the results obtained, 38 out of 97 participants who chose problem | and 28 out of 97 who 
chose problem 2, did not show a clear justification when choosing between the data sets. For 
example, in problem 1, they selected gamble 2 and considered: “because there is a greater possibility 
of winning a higher number of objects in gamble 2 than in gamble 1.” However, we found no evident 
strategy to represent what was stated. Additionally, the use of the word objects does not correspond 
to the context laid out. In problem 2, the participants only justified their response by saying “one 
lives longer with one of the treatments”, but provided no arguments to show how the data were used. 


Conclusions 

In problem 1, nearly 40% of the responses were confusing. However, in some of them we see 
that the preservice teachers paid attention to the differences between the values in each data set, 
which is a starting point for the perception of variation. Thus, in the problem of medical treatments, 
there are several responses which compare isolated element from each set (the maximums, the 
minimums or the modes) and, although they were not always combined in the correct way, a strategy 
including all the data or a combination of them might be suggested. In the gambling problem, the 
attention of the participants was probably focused on isolated elements—on extreme values, 
particularly—in those responses stating the gains are higher or the losses are lower. 

The strategy of adding the gains and then the losses considers all the data. In problem 2, several 
preservice teachers used proportional relationships in which they combined and used more than one 
value from the data set by operating with them or mentioning them explicitly. 

The comparison of the total gains prefigures the most sophisticated response consistent in 
comparing means, which is not a spontaneous nor easy strategy to create by the students (Gal, 
Rothschild & Wagner, 1989), but was observed among the preservice teachers. 

When teaching, the importance of proportionality is highlighted; therefore, it is considered a 
necessary strategy to solve any given problem; in our research, it was used in the comparison of 
reasons in problem |. We consider it is not an entirely incorrect strategy because it led the students to 
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choose the gamble in which the loss is lower. This form of solving is more adequate in problem 2, in 
which the students compare the proportions of the modal values. 

There are few responses based on the consideration of the ranges (6%) or influenced by the 
perception of risk (problem 2). With respect to the problems, the participants showed that they are 
different from one another, given that no student adapted the strategy followed in problem | to 
problem 2. This leads us to suppose that the context and the format of the presentation of the data 
have a greater effect than the (hidden) structure of the problem. 

In general, the data were reviewed in problem | while 20 participants chose a treatment in 
problem 2 without providing a justification that included an adequate data processing. This situation 
was likely due to the difficulty of extracting the numerical data from the graph (extreme values from 
each data set and apparent absence of data list). In contrast, in problem 2 the students considered the 
risk when choosing treatment | “can manage to live for 10 years”, or treatment 2, with which patients 
live for four years at least. 

From the results shown, we observe that, as in previous research (Canada & Makar, 2006; 
Mooney et al., 2014), statistical concepts as center, variation, distribution and expected values in 
problems, must be promoted in preservice teachers. The strategies to be followed should be multiple 
(discussions, workshops, use of technology, solving problems with different contexts, and varied 
ways of presenting data, among others), so that preservice teachers appropriate these concepts. In 
addition, Mexican preschool teachers in service should deal with grouping objects, according to 
qualitative and quantitative characteristics, in the classroom. They should also address the collection 
and the adequate representation and interpretation of data and information (SEP, 2011). These 
processes demand considering variability (Franklin, Kader, Mewborn, Moreno, Peck, Perry & 
Scheaffer, 2007); therefore, teachers should develop this concept. 

This research contributes with information regarding preservice teachers’ knowledge on 
variability, a relevant statistics concept (Spangler, 2014). We incipiently show that the problems with 
which we have explored the preservice teachers’ reasoning lead to perceive variation. The problems 
gave variation a meaning associated to risk when the teachers presented strategies that led them to 
use the mean and the range in a significant way. The problems presented also lead to motivate 
teachers to plan activities that promote giving sense and meaning to the procedures based on the use 
of mean and spread. 
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